假设我们要保存这样的数据:
name | age | wgt | |
---|---|---|---|
0 | dan | 1 | 23.1 |
1 | ann | 0 | 25.1 |
2 | sam | 2 | 8.3 |
希望定义一个一维数组,每个元素有三个属性 name, age, wgt
,此时我们需要使用结构化数组。
import numpy as np
定义数组 a
:
0 | 1 | 2 | 3 |
---|---|---|---|
1.0 | 2.0 | 3.0 | 4.0 |
a = np.array([1.0,2.0,3.0,4.0], np.float32)
使用 view
方法,将 a
对应的内存按照复数来解释:
a.view(np.complex64)
0 | 1 | 2 | 3 |
---|---|---|---|
1.0 | 2.0 | 3.0 | 4.0 |
real | imag | real | imag |
事实上,我们可以把复数看成一个结构体,第一部分是实部,第二部分是虚部,这样这个数组便可以看成是一个结构化数组。
换句话说,我们只需要换种方式解释这段内存,便可以得到结构化数组的效果!
0 | 1 | 2 | 3 |
---|---|---|---|
1.0 | 2.0 | 3.0 | 4.0 |
mass | vol | mass | vol |
例如,我们可以将第一个浮点数解释为质量,第二个浮点数解释为速度,则这段内存还可以看成是包含两个域(质量和速度)的结构体。
my_dtype = np.dtype([('mass', 'float32'), ('vol', 'float32')])
a.view(my_dtype)
这里,我们使用 dtype
创造了自定义的结构类型,然后用自定义的结构来解释数组 a
所占的内存。
这里 f4
表示四字节浮点数,<
表示小字节序。
利用这个自定义的结构类型,我们可以这样初始化结构化数组:
my_data = np.array([(1,1), (1,2), (2,1), (1,3)], my_dtype)
print my_data
第一个元素:
my_data[0]
得到第一个元素的速度信息,可以使用域的名称来索引:
my_data[0]['vol']
得到所有的质量信息:
my_data['mass']
自定义排序规则,先按速度,再按质量:
my_data.sort(order=('vol', 'mass'))
print my_data
回到最初的例子,定义一个人的结构类型:
person_dtype = np.dtype([('name', 'S10'), ('age', 'int'), ('weight', 'float')])
查看类型所占字节数:
person_dtype.itemsize
产生一个 3 x 4 共12人的空结构体数组:
people = np.empty((3,4), person_dtype)
分别赋值:
people['name'] = [['Brad', 'Jane', 'John', 'Fred'],
['Henry', 'George', 'Brain', 'Amy'],
['Ron', 'Susan', 'Jennife', 'Jill']]
people['age'] = [[33, 25, 47, 54],
[29, 61, 32, 27],
[19, 33, 18, 54]]
people['weight'] = [[135., 105., 255., 140.],
[154., 202., 137., 187.],
[188., 135., 88., 145.]]
print people
people[-1,-1]
我们有这样一个文件:
%%writefile people.txt
name age weight
amy 11 38.2
john 10 40.3
bill 12 21.2
利用 loadtxt
指定数据类型,从这个文件中读取结构化数组:
person_dtype = np.dtype([('name', 'S10'), ('age', 'int'), ('weight', 'float')])
people = np.loadtxt('people.txt',
skiprows=1,
dtype=person_dtype)
people
查看 name
域:
people['name']
删除文件:
import os
os.remove('people.txt')
对于下面的文件:
%%writefile wood.csv
item,material,number
100,oak,33
110,maple,14
120,oak,7
145,birch,3
定义转换函数处理材料属性,使之对应一个整数:
tree_to_int = dict(oak = 1,
maple=2,
birch=3)
def convert(s):
return tree_to_int.get(s, 0)
使用 genfromtxt
载入数据,可以自动从第一行读入属性名称:
data = np.genfromtxt('wood.csv',
delimiter=',', # 逗号分隔
dtype=np.int, # 数据类型
names=True, # 从第一行读入域名
converters={1:convert}
)
data
查看域:
data['material']
删除文件:
os.remove('wood.csv')
有时候,结构数组中的域可能包含嵌套的结构,例如,在我们希望在二维平面上纪录一个质点的位置和质量:
position | mass |
---|---|
x | y |
那么它的类型可以这样嵌套定义:
particle_dtype = np.dtype([('position', [('x', 'float'),
('y', 'float')]),
('mass', 'float')
])
假设数据文件如下:
%%writefile data.txt
2.0 3.0 42.0
2.1 4.3 32.5
1.2 4.6 32.3
4.5 -6.4 23.3
读取数据:
data = np.loadtxt('data.txt', dtype=particle_dtype)
data
查看位置的 x
轴:
data['position']['x']
删除生成的文件:
os.remove('data.txt')